查看原文
其他

当下热门的开源AI大模型全梳理

隐宝 开放隐私计算 2024-01-09
        
01AI大模型的开源现状

去年,OpenAI发布了GPT-3,其千亿参数的规模和惊⼈的语言处理能力给全世界带来了震撼。 之后产业界和学术界迅速投入其中,大量相关的学术研究和应用探索陆续展开,⼀批提供文本生成服务的商业公司也在海外诞生。

不过,OpenAI不Open,很多公司和开发者只能看着干着急,直到Meta站出来发布了LLaMA,为全世界开发者谋了一把福利,自此各类开源AI大模型纷纷冒头,全球进入AIGC时代!

随着AI大模型开源的流行,目前已经涌现了越来越多的开源大型语言模型(LLM)项目,但是不同项目的特点不同,尤其是在能否进行商业化应用方面存在显著差异。基于此,本文就现有的AI⼤模型开源项目,从可商用和可研究两个方向进行了梳理。

02可商用开源AI大模型𝗙𝗹𝗮𝗻-𝗨𝗟𝟮谷歌的开源LLM,Flan-UL2是⼀种基于T5架构的编解码器模型。它使⽤与去年早些时候发布的UL2型号相同的配置。使用“Flan”提示调优和数据集收集对其进行了微调。演示链接:https://huggingface.co/google/flan-ul2𝗢𝗽𝗲𝗻𝗖𝗵𝗮𝘁𝗞𝗶𝘁可创建专用和通用的聊天机器⼈演示链接:https://huggingface.co/spaces/togethercomputer/OpenChatKit𝗖𝗲𝗿𝗲𝗯𝗿𝗮𝘀-𝗚𝗣𝗧Cerebras-GPT系列的发布是为了促进使⽤开放架构和数据集研究 LLM 缩放定律,并展⽰在 Cerebras 软件和硬件堆栈上训练 LLM 的简单性和可扩展性。所有 Cerebras-GPT模型都可⽤于 Hugging Face。该系列包括 111M、256M、590M、1.3B、2.7B、6.7B和 13B 型号。Cerebras-GPT系列中的所有模型都根据计算最优的Chinchilla 缩放法则(每个模型参数20 个标记)进⾏了训练。这些模型在由 16 个 CS-2 晶圆级系统组成的Andromeda AI 超级计算机上进⾏训练。Cerebras 的权重流技术通过将计算与模型存储分离来简化 LLM 的训练。这允许使⽤简单的数据并⾏性有效地扩展跨节点的训练。 ⽤于预训练和微调的 Cerebras 系统可通过Cerebras Model Studio在云中获得。Cerebras 模型动物园中提供 Cerebras CS-2 兼容检查点。演⽰链接:https://lnkd.in/gr4sqB_wAI𝗣𝘆𝘁𝗵𝗶𝗮PythiaScaling Suite是⼀组为促进可解释性研究而开发的模型。它包含两组八个型号,尺寸分别为 70M、160M、410M、1B、1.4B、2.8B、6.9B 和 12B。对于每种尺寸,有两种模型:⼀种是在 Pile 上训练的,另⼀种是在对数据集进行全局去重后在 Pile 上训练的。所有 8 种模型尺⼨都以完全相同的顺序在完全相同的数据上进行训练。我们还为每个模型提供154 个中间检查点,作为分支托管在 Hugging Face 上。Pythia模型套件旨在促进大型语言模型的科学研究,特别是可解释性研究。尽管没有将下游性能作为设计目标,但我们发现这些模型的性能达到或超过了类似和相同尺寸模型的性能,例如 OPT 和GPT-Neo 套件中的模型。演⽰链接:https://lnkd.in/gcE9qXkE代码链接:https://lnkd.in/gRVJTVKvPrimiHubPrimiHub 联邦学习大模型也是一个多模态、多任务、多领域的联邦预训练模型,它可以理解和生成文本,并支持多种语言和场景,并且可以应用于搜索、推荐、对话、翻译、摘要、创作等多个领域,为用户提供更丰富、更精准、更个性化的内容和服务。代码链接:https://github.com/primihub𝗕𝗹𝗼𝗼𝗺 & 𝗺𝗧𝗢BLOOMZ 和 mT0,这是⼀个模型系列,能够零样本地遵循数⼗种语⾔的⼈类指令的模型。我们在跨语⾔任务混合 (xP3) 上微调 BLOOM 和mT5 预训练的多语⾔语⾔模型,并发现⽣成的模型能够跨语⾔泛化到看不⻅的任务和语言。演示链接:https://lnkd.in/gURNQjsC𝗢𝗽𝗲𝗻𝗔𝘀𝘀𝗶𝘀𝘁𝗮𝗻𝘁⼀种基于聊天的助手,可以理解任务,可以与第三⽅系统交互,并动态检索信息。演⽰使⽤了⼀个经过微调的30B LLaMA。演⽰链接: https://lnkd.in/gu4GTtTD𝗻𝗮𝗻𝗼𝗧𝟱预训练和微调t5风格模型。AI大模型开源现状分析演⽰链接:https://lnkd.in/gf5rXKrn𝗚𝗲𝗼𝗩GeoV 模型由 Georges Harik 设计,并使⽤ 由Georges Hark和Varuna Jayasiri设计的具有相对距离的旋转位置嵌入 (RoPER)。RoPER除了在 RoPE 嵌入的注意力分数计算中使⽤相对位置外,还将相对位置信息显式添加到值嵌入中。具体来说,它包含了关注的令牌的相对位置。RoPER 在⼀些算法任务中给出了更好的性能,并且在语言建模方面似乎可以与 RoPE 相媲美。GeoV分词器使⽤SentencePiece unigram语言模型,将符号、数字和换行符分别分词,以在数学内容和代码上取得更好的性能。这个模型是由gharik和vpj贡献的。代码链接:https://lnkd.in/gbsk8NeZ多模态⼤模型MiniGPT-4MiniGPT-4是⼀个可以理解图片的大语言模型,是由开源的预训练模型Vicuna-13B与BLIP-2结合得到。 研究发现,MiniGPT-4具有许多与GPT-4类似的功能,比如生成详细的图像描述和从手写草稿创建网站。MiniGPT-4还有其他新兴功能,包括根据给定的图像撰写故事和诗歌,提供解决图像中显示的问题的方法,以及基于食品照片教用户如何烹饪等。代码链接:https://github.com/Vision-CAIR/MiniGPT-4LLaVA是微软联合威斯康星⻨迪逊分校⽼师发布的另⼀个多模态⼤模型。与MiniGPT-4不同的是,这个模型主要是把instruction-tuning放到了多模态模型上,这是将指令调整扩展到多模态空间的第⼀次尝试,使⽤ChatGPT/GPT-4将图像-⽂本对转换为适当的指令跟随格AI⼤模型开源现状分析式。将CLIP视觉编码器与语⾔解码器LLaMA连接起来,并进⾏端到端微调。最终效果也是很不错。代码链接:https://github.com/haotian-liu/LLaVAOpenFlamingoOpenFlamingo 是 Google DeepMind 去年发布的 Flamingo 模型的开源复制版。OpenFlamingo 旨在为 LLM 提供多模式图像推理功能,让⼈们能够交错输⼊⽂本和图像。代码链接:https://github.com/mlfoundations/open_flamingoVisualGLM-6BVisualGLM-6B是⼀个可以在本地运⾏的多模态对话语⾔模型,拥有良好的性能和较低的部署成本,⽀持图像、中⽂和英⽂。⽬前,VisualGLM-6B已经推出了⽹⻚端的试玩版。 ⽤户只需要在Hugging Face的试玩界⾯上传图⽚,并与其进⾏“对话”,它就可以⽣成对图⽚的理解结果。VisualGLM-6B最⼤的特点在于结合模型量化技术,可以让⽤户在消费级的显卡上进⾏本地部署,在INT4量化级别下,最低只需要8.7G显存。代码链接:https://github.com/THUDM/VisualGLM-6B
03可研究开源AI大模型

𝗕𝗮ize

Baize 是⼀种使⽤LoRA训练的开源聊天模型。它使⽤让 ChatGPT 与⾃⾝聊天⽣成的100k 对话。我们还使⽤Alpaca 的数据来提⾼其性能。我们已经发布了 7B、13B 和

30B 型号。

演⽰链接:https://lnkd.in/g_npB3ut

代码链接:https://lnkd.in/ghCwWeg6

𝗩𝗶𝗰𝘂𝗻𝗮AI

⼀个开源聊天机器⼈,其性能⼏乎与⾕歌的Bard和ChatGPT相同。

演⽰链接:https://chat.lmsys.org/

代码链接:https://lnkd.in/grTJA5G5

𝗞𝗼𝗮𝗹𝗮

Koala 是我们在LLaMA 之上微调的新聊天机器⼈。⼤型语⾔模型 (LLM) 变得简单,EasyLM 是⽤于在 JAX/Flax 中预训练、微调、评估和服务 LLM 的⼀站式解决⽅案。EasyLM 可以利⽤ JAX 的 pjit 功能将 LLM 训练扩展到数百个 TPU/GPU 加速器。 建⽴在 Hugginface 的转换器和数据集之上,这个 repo 提供了⼀个易于使⽤和易于定制的代码库,⽤于训练⼤型语⾔模型,⽽没有许多其他框架的复杂性。EasyLM 是⽤ JAX/Flax 构建的。通过利⽤ JAX 的 pjit 实⽤程序,EasyLM能够通过跨多个加速器共享模型权重和训练数据来训练不适合单个加速器的⼤型模型。⽬前,EasyLM ⽀持单个主机上的多个 TPU/GPU 训练以及 Google Cloud TPU Pod 上的多主机训练。

演⽰链接:https://lnkd.in/gKWAgq58

代码链接:https://lnkd.in/g7Tm_MRq

𝗚𝗣𝗧𝟰𝗔𝗹𝗹

训练基于 LLaMa 的 ~800k GPT-3.5-Turbo 世代的助⼿式 LLM。

代码链接:https://lnkd.in/gB3gKBud

𝗟𝗶𝘁-𝗟𝗟𝗮𝗠𝗔

基于nanoGPT的LLaMA的独⽴实现。

代码链接:https://lnkd.in/gfA5rb4ZAI⼤模型开源现状分析

𝗗𝗼𝗹𝗹𝘆 (𝗗𝗮𝘁𝗮𝗯𝗿𝗶𝗰𝗸𝘀)

Databricks 的Dolly是⼀种指令遵循⼤型语⾔模型,在已获得商业使⽤许可的Databricks 机器学习平台上进⾏训练。基于pythia-12b,Dolly 接受了 databricks dolly-15kDatabricks员⼯在 InstructGPT 论⽂的能⼒域中⽣成的约 15k指令/响应微调记录的训练,包括头脑⻛暴、分类、封闭 QA、⽣成、信息提取、开放 QA 和总结。

dolly-v2-12b不是最先进的模型,但确实表现出令⼈惊讶的⾼质量指令遵循⾏为,⽽不是它所基于的基础模型的特征。Databricks 致⼒于确保每个组织和个⼈都能从⼈⼯智能的变⾰⼒量中受益。Dolly 模型系列代表了我们在这⼀旅程中迈出的第⼀步,我们很⾼兴与全世界分享这项技术。

该模型作为databricks/dolly-v2-12b在 Hugging Face 上可⽤。

代码链接:https://lnkd.in/gw_b2jdf

𝗔𝗹𝗽𝗮𝗰𝗮.𝗰𝗽𝗽

在您的设备上本地运⾏类似 ChatGPT 的快速模型。

代码链接:https://lnkd.in/gDRzZWSc

𝗔𝗹𝗽𝗮𝗰𝗮-𝗟𝗼𝗥𝗔

与text-davinci-003 质量相似的指⽰模型,可在本地设备上运⾏。

演⽰链接:https://lnkd.in/gfh7FM7X

代码链接:https://lnkd.in/gZ5dKGKW

𝗹𝗹𝗮𝗺𝗮.𝗰𝗽𝗽

在纯C/C++中推断LLaMA模型,⽀持LLaMA,Alpaca,GPT4All和Vicuna

代码链接:https://lnkd.in/gkZ8XaJJ

𝗖𝗼𝗹𝗼𝘀𝘀𝗮𝗹𝗖𝗵𝗮𝘁AI

LLM由Colossal-AI驱动的RLHF训练

代码链接:https://lnkd.in/gTezhGXD

补充:Dolly和Lit-LLaMA仅被允许⽤于研究⽤途

ImageBind

Meta 新的开源模型 ImageBind 将多个数据流连接在⼀起,适⽤于⽂本、视频和⾳频等6 种模态。 在⼈类的感官中,⼀张图⽚可以将很多体验融合到⼀起,⽐如⼀张海滩图⽚可以让我们想起海浪的声⾳、沙⼦的质地、拂⾯⽽来的微⻛,甚⾄可以激发创作⼀⾸诗的灵感。图像的这种「绑定」(binding)属性通过与⾃⾝相关的任何感官体验对⻬,为学习视觉特征提供了⼤量监督来源。

代码链接:https://github.com/facebookresearch/ImageBind

04开源大模型评估与选择对于希望以开源项目为基础,进而开发商业产品的公司来说,如何选择开源模型就变得非常关键,除了需要考虑不同模型的特点以外,更需要考虑模型和应用场景的适配性。最近LMSYS Org给出了⼀个可供参考的⽅法,他们直接建立了⼀个竞技场,以众包⽅式让他们匿名、随机的进⾏对抗,形成排行榜。并邀请整个社区加⼊这项⼯作,贡献新模型,所有⼈都可以参与提问和投票来评估它们,判断谁才是最好的模型。⼤模型之间直接进⾏⽐拼,就像下图中,模型B完美说出正确答案,⽽模型A⽜头不对⻢嘴,遗憾出局。 根据⼤数据分享的4.7K投票数据计算Elo评分,得出如下排⾏榜。vicuna 以 1169 分稳居榜⾸,遥遥领先第⼆名 koala。获得的评比结果可以为公司的开源产品选择提供参考,与此同时,公司也可以结合自身业务以及场景特点,设计符合自身需求的测试,更加快速地找到最适合自身的开源AI大模型。
END热门文章:




隐私计算头条周刊(5.15-5.21)


讲师招募|欢迎加入“隐私计算共学计划”


联合国公布18个全球隐私计算技术应用典型案例!


盘点全球四大类14种隐私增强技术的发展、应用和难点


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存